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摘要 : 串联 重复 序列 是 指 1 ~ 200 个 碱 基 左 右 的 核心 重复 单位 ， 以 头 尾 相 串 联 的 方式 重复 多 次 所 组 成 的 重 
复 序列 。 它 广泛 存在 于 真 核 生物 和 一 些 原核 生物 的 基因 组 中 ， 并 表现 出 种 属 、 碱 基 组 成 等 的 特异 性 。 在 基因 组 
整体 水 平 上 ， 各 种 优势 的 重复 序列 类 型 不 同 。 即 使 在 同一 重复 序列 类 型 内 部 ,不 同 重复 拷贝 类 别 (如 AT, AC 
等 ) 在 基因 组 中 的 存在 也 表现 出 很 大 的 差异 。 同 时 ， 这 些 重复 序列 类 型 和 各 重复 找 贝 类 别 在 同一 物种 的 不 同 染 
色 体 间 ， 以 及 基因 的 编码 区 和 非 编码 区 间 也 表现 种 属 和 碱 基 组 成 差异 。 这 些 差 异 显 示 了 重复 序列 起 源 和 进化 的 
复杂 性 ， 可 能 涉及 到 多 种 机 制 和 因素 ， 并 与 生物 功能 密切 相关 。 另 外 ， 由 于 重复 序列 分 析 软 件 和 统计 标准 还 存 
在 算法 、 重 复 长 度 、 完 美 性 等 问题 ， 需 要 进一步 探讨 。 此 外 ， 串 联 重复 序列 的 自身 进化 关系 、 全 基因 组 水 平 上 
的 进化 地 位 、 在 基因 组 中 的 生物 功能 、 重 复 序列 数据 库 建立 和 应 用 研究 等 ， 将 是 今后 研究 的 主要 课题 。 
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Abstract: Tandem repeat sequences, also known as direct repeats, are repeat sequences in which the length of the 
repeat unit changes mainly from 1 to 200 bp size, and the repeat unit is arranged in a *head-tail" conjunction mode, and 
is distributed widely in the genome of eukaryotes and some prokaryotes. At the level of full genomes, both the abundance 
and distribution characteristics of repeat types, such as dinucleotide repeats and trinucleotide repeats et cetera are varied 
in different organisms, and the variedness also occurs in different repeat classes, such as AT and AC repeat classes etc. 
and across inter-chromosomes , and even between coding regions and noncoding regions. All of the above differences indi- 
cate that the genesis and evolution of tandem repeat sequences are complex and may involve several mechanisms and fac- 
tors, as is typical of biology. Additionally, there exist some problems preventing us from further studying the tandem re- 
peat sequences, e.g. the software to analyze repeat sequences, criteria such as the length, the copy number, and the per- 
fect or imperfect delimitation to determine what is a repeat sequence or not which varies across researchers. In order to ad- 
dress these problems, six future research directions should be pursued: The study of tandem repeat sequences, the self- 
evolution relations of tandem repeat sequences, the evolution status in the level of full genomes, the biology function, the 
establishment of tandem repeat sequence data-banks, and their application researches. 
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微 卫 星 (microsatellites) 重复 序列 是 一 类 目前 
应 用 广泛 的 遗传 标记 ， 其 重复 单位 碱 基数 目 一 般 为 
1~6 个 , 如 (CA) n、 (CAG) n 等 (Gao et al, 
2004), ， 而 与 之 相应 的 是 小 卫星 (minisatellites) 重 
复 序列 ， 其 重复 单位 的 碱 基 数目 在 不 同文 献 (Ver- 
gand & Denoed, 2000; Ingavale et al, 1998; Jauert 
etal, 2002) 中 有 所 不 同 。 综 合 这 些 文献 ， 小 卫星 
重复 单位 的 长 度 应 定义 在 7 ~ 200 个 碱 基 ， 而 有 时 
又 把 其 中 25 个 碱 基 以 上 的 重复 单位 所 组 成 的 重复 
序列 称 为 大 卫星 (macrosatellites) (Wickstead et al, 
2003)。 微 卫星 和 小 卫星 重复 序列 因 其 核心 重复 单 
位 是 以 头 尾 相 连 的 多 次 重复 的 碱 基 组 成 ， 有 别 于 回 
文 序列 (palindromie sequences) 和 反 疝 重复 序列 
(reversed repeat sedquences ) ， 故 统称 它们 为 串联 重 
复 序列 (tandem repeat sequences) 。 

在 微 卫星 和 小 卫星 重复 序列 的 研究 中 ， 最 为 人 
们 所 熟知 的 是 其 作为 分 子 遗传 标记 的 研究 。 微 卫星 
重复 序列 在 群体 间 和 不 同 个 体 间 通常 表现 出 很 高 的 
序列 变异 性 ， 并 且 这 种 变异 呈现 共 显 性 遗传 ， 因 而 
微 卫 星 重复 序列 广泛 应 用 于 遗传 多 样 性 分 析 
(Hadonou et al, 2004; Romero et al，2003) 、 连 锁 
图 谱 制 作 (Staten et al，2004)、 疾 病 连 锁 分 析 
(Sakurai et al, 2004) 和 家 系 标 识 (Selvamani et al, 
2001) 等 研究 。 而 小 卫星 重复 序列 常 被 制作 成 DNA 
探 针 ， 以 基因 组 杂交 的 方式 研究 其 DNA 指纹 图 谱 
的 特征 (Jeffreys et al, 1985; Saha & Bamezai, 
2000) 。 目 前 关于 微 卫 星 和 小 卫星 重复 序列 的 相关 
研究 进展 很 快 ， 每 年 都 有 数 千 篇 研究 成 果 文 献 的 报 
道 。 一 些 综述 性 文献 也 对 此 进行 了 阐述 (Luo et al, 
2003; He，1998)， 但 对 于 这 些 串联 重复 序列 在 各 
物种 基因 组 中 的 存在 状况 ， 以 及 这 些 存在 状况 与 重 
复 序列 的 起 源 和 进化 关系 等 方面 都 还 缺少 系统 详尽 
地 冰释 。 近 年 来 ， 随 着 各 种 生物 基因 组 测序 计划 的 
进行 ， 许 多 科学 工作 者 开展 了 基于 基因 组 整体 水 平 
的 串联 重复 序列 的 分 析 工 作 。 


1 串联 重复 序列 的 差异 


1.1 物种 差异 

目前 用 于 生物 基因 组 中 重复 序列 分 析 的 序列 主 
要 来 源 于 已 经 公布 的 核酸 数据 库 和 各 研究 单位 构建 
的 随机 DNA 基因 组 文库 ， 前 者 即 美国 的 国家 生物 
技术 信息 中 心 (National Center for Biotechnology In- 


formation，NCBI) 、 欧 洲 分 子 生 物 学 实验 室 、 日 本 
国立 遗传 学 研究 所 共同 制作 的 国际 核酸 序列 数据 库 
(DDBJ/EMBL/GENBANK)， 其 优点 是 全 面 系统 ， 
但 只 能 局 限于 人 类 、 拟 南 芥 等 少数 已 经 完成 基因 组 
测序 计划 的 物种 ; 后 者 虽然 不 全 面 ， 但 类 似 于 从 大 
群体 随机 抽样 的 方法 ， 通 过 随机 基因 组 克隆 序列 分 
析 ， 可 以 得 知 该 物种 基因 组 中 的 串联 重复 序列 的 存 
在 状况 。 

串联 重复 序列 在 部 分 原核 生物 的 基因 组 中 业已 
存在 ; 在 高 等 生物 的 基因 组 中 更 是 比比 皆 是 ， 如 6 
个 碱 基 及 其 以 上 长 度 的 串联 重复 序列 约 占 大 肠 杆菌 
(E.coli) 基因 组 序列 总 长 度 (109 kb) 的 2.4% 
(Gur-Arie et al, 2000); 在 人 类 基因 组 中 ， 重 复 单 
位 在 1~11 bp 范围 内 的 串联 重复 序列 约 占 基因 组 
长 度 的 2% (Borstnik & Pumpernik, 2002), 一 般 ， 
按 组 成 重复 单位 的 碱 基数 目 ， 串 联 重复 序列 分 为 单 
碱 基 、 两 碱 基 、 三 碱 基 等 类 型 。 而 每 一 种 重复 序列 
类 型 又 可 细 分 出 不 同 的 重复 拷贝 类 别 ， 如 CT 和 CG 
分 别 属 于 不 同 的 重复 拷贝 类 别 (Gao et al，2004) 。 
不 同 生物 基因 组 中 占 优势 的 重复 序列 类 型 既 相同 ， 
又 不 同 ( 表 1)。 在 原核 生物 和 酵母 的 基因 组 中 ， 
处 于 优势 的 重复 序列 类 型 是 三 碱 基 ， 而 比 它们 更 高 
等 的 生物 基因 组 中 ， 则 倾向 于 两 碱 基 和 单 碱 基 重 复 
序列 类 型 。 

重复 拷贝 类 别 也 因 种 而 异 。 部 分 生物 基因 组 中 
占 优势 的 重复 拷贝 类 别 的 情况 见 表 2。 在 现 已 研究 
的 所 有 物种 的 单 碱 基 重复 序列 中 ，A 或 了 重复 拷贝 
最 多 , 而 C 或 G 很 少 ; 两 碱 基 重 复 序 列 中 ， 较 低 
等 生物 基因 组 中 重复 拷贝 以 AT 和 AG 为 主 ， 而 高 
等 生物 基因 组 中 又 以 AC 最 多 。 三 碱 基 及 其 以 上 重 
复 序列 中 ， 各 种 重复 拷贝 类 别 无 明显 规律 可 循 ， 但 
最 明显 的 特征 是 ， 处 于 优势 数目 的 重复 拷贝 类 别 都 
富 含 A 或 T。 
1.2 在 染色 体 上 的 差异 

重复 序列 各 种 类 型 及 类 别 不 仅 在 物种 间 不 同 ， 
而 且 在 同一 物种 的 不 同 染 色 体 上 也 不 相同 。 如 : A 
蝇 微 卫星 重复 序列 在 X 染色 体 上 的 密度 比 在 其 他 染 
色 体 上 高 得 多 (Bachtrog et al, 1999); 按 蚊 微 卫星 
重复 序列 在 X 染色 体 上 的 密度 也 是 最 高 的 ， 其 平均 
长 度 是 142.75 bp/Mb (Yu et al，2005)。 人 类 的 21 
和 22 号 染色 体 的 长 度 几乎 相同 ， 但 重复 序列 的 单 
碱 基 、 三 碱 基 和 四 碱 基 类 型 在 22 号 染色 体 上 的 丰 
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表 1 不 同 物种 基因 组 的 优势 重复 序列 类 型 
Tab. 1 Predominant repeat types in the genomes of different organisms 


重复 序列 类 型 Repeat sequences type 


物种 Species 


资料 来 源 Source of data 





生殖 支原体 M. genitalium 
耶 尔 森 氏 菌 Y. pestis 


酵母 Saccharomyces cerevisiae 


三 碱 基 Trinucleotide 


Klevytska et al 2001 
Belkum et al, 1998 
Katti et al, 2001 





果 蝇 Drosophila sp. 


Ross et al, 2003 





哺乳 类 Mammalia 


两 碱 基 Dinucleotide 


"HE ZI] Vertebrate 


Tóth et al, 2000 


节肢 动物 Arthropod 
路 齿 类 Rodent 





秀丽 隐 杆 线虫 Caenorhabditis elegans 


单 碱 基 Mononucleotide 


拟 南 芥 Arabidopsis thaliana 
人 类 Human 


Katti et al, 2001 





Tóth et al, 2000 


表 2 不 同 物种 基因 组 的 重复 拷贝 类 别 


Tab. 2 Predominant repeat classes in the genomes of different organisms 
































物种 两 碱 基 三 碱 基 四 碱 基 NDW 
Species Dinucleotide Trinucleotide Tetranucleotide edi "etie 资料 来 源 
cleotide cleotide 
Source of data 
1 2 3 1 2 3 1 2 3 1 1 
拟 南 并 4. thaliana AT — AG AC AAG ATG AAC Katti et al, 2001 
大 肠 杆菌 E. coli CG AG AC GCCA Gur-Arie et al, 2000 
酵母 Sacchar- AT AC AG AAC AAT AAG Katti et al, 2001 
omvyces cerevisiae 
秀丽 隐 杆 线虫 AG AC AT AAG AAT  ATG 
C. elegans 
中 国明 对 是 AT AC AG . AAT AAG  ATC AGAT ACAT AGAC AGAGA  ATTATC Gao et al, 2004 
F. chinensis 
2x it Silkworm AG AT AC AAT AGC  AAG  AATC AATG AACC AAAAN  AAAAAN Li B et al, 2004 
蚊子 Mosquito AC AG AT AGC AAC ACC  AATC AATG AACC AAAAN AAAAAN 
JRÉR D. arizonae AC AG AT AGC AAC  ATC ACAG AGCTC | AACAGC Ross et al, 2003 
斑马 鱼 Zebrafish AC AG AT | AAG AGC AGG  AATC AATG AACC AAAAN  AAAAAN Li B et al, 2004 
河豚 F. rubripes AC AG AT AGG AGC AAT  AAAT ACAG ACGC AAAAN  TTAGGG Edwards et al, 1998 
2x BL Mouse AC AG AT AGC AAC ACC AATC AATG AACC AAAAN  AAAAAN Li B et al, 2004 
7]NBR, Rat AC AG AAAN AAGG Beckman & Weber, 
人 类 Huaman AC AG AAN AAAN 1992 


富 度 明 显 大 于 21 号 染色 体 ; 而 两 碱 基 正 好 与 此 相 
反 (Katti et al，2001)。 此 外 ， 重 复 拷贝 类 别 在 不 
同 染色 体 上 的 密度 也 有 较 大 差异 : 人 类 GATA 重复 
拷贝 类 别 在 v 染色 体 中 的 密度 达 222 bp/Mb， 比 在 
其 他 染色 体 上 高 得 多 (Subramanian et al, 2003), 
1.3 在 基因 和 基因 间隔 区 上 的 差异 

重复 序列 在 基因 编码 区 (外 显 子 ) 和 非 编 码 区 
(内 含 子 和 基因 间隔 区 ) 同样 存在 差异 。 在 原核 生 
物 弗 氏 志 贺 菌 ( Shigella flexneri ) 中 ， 三 碱 基 、 四 
碱 基 和 六 碱 基 在 编码 区 较 多 ， 而 单 碱 基 和 两 碱 基 则 
在 非 编 码 区 较 多 (Yang et al，2003)。 与 此 不 同 的 


是 ， 两 碱 基 、 三 碱 基 、 四 碱 基 、 五 碱 基 、 六 碱 基 在 
大 肠 杆菌 (E. coli) 基因 组 的 编码 区 和 非 编 码 区 无 
显著 差异 ， 但 单 碱 基 却 因 统 计 重复 序列 长 度 的 起 点 
不 同 ， 而 显示 出 有 差异 ， 如 在 开放 阅读 框 (open 
reading frames, ORFs) 区 域 ( 约 占 全 基因 组 的 
79.5%) 和 非 编 码 区 ( 约 占 全 基因 组 的 20.596), 3 
个 碱 基 以 上 长 度 ( 即 只 要 连续 出 现 3 个 相同 碱 基 或 
以 上 ， 就 把 此 序列 作为 单 碱 基 重 复 序列 来 统计 ) 的 
单 碱 基 重 复 序 列 的 比例 分 别 为 78.0% 和 22.096, 
与 编码 区 和 非 编 码 区 的 分 布 规 律 基本 一 致 ; 而 当 把 
统计 单 碱 基 重 复 序列 长 度 的 标准 逐渐 提高 的 情况 
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下 ， 如 分 别 在 4、5、6、7、8 等 碱 基 长 度 的 情况 
T. 单 碱 基 重复 序列 的 数量 在 开放 阅读 框 〈 编 码 
区 ) 中 的 比例 明显 下 降 ， 而 主要 集中 在 非 编 码 区 的 
序列 中 (Gur-Arie et al, 2000). 

在 真 核 生 物 的 基因 组 中 ， 重 复 序列 很 少 与 编码 
区 相连 ， 而 主要 位 于 基因 以 外 的 区 域 (Cox & 
Mirkin，1997) 。 在 灵 长 类 、 哺 乳 类 、 嘴 齿 类 、 节 肢 
动物 、 秀 丽 隐 杆 线虫 、 有 胚 植物 、 酵 母 和 其 他 真菌 
的 基因 组 中 ， 在 外 显 子 区 域 最 多 是 三 碱 基 ， 其 次 是 
六 碱 基 。 同 时 ， 除 了 有 了 胚 植物 和 秀丽 隐 杆 线虫 外 ， 
其 余 在 内 含 子 和 基因 间隔 区 ， 六 碱 基 的 数量 都 比 在 
外 显 子 中 多 。 灵 长 类 内 含 子 和 基因 间隔 区 中 单 碱 基 
的 数量 最 多 ， 是 两 碱 基 和 四 了 碱 基 的 两 倍 以 上 。 在 路 
齿 类 、 哺 乳 类 、 节 肢 动物 和 秀丽 隐 杆 线虫 非 编码 区 
的 内 含 子 和 基因 间隔 区 中 最 多 是 两 碱 基 。 值 得 一 提 
的 是 ， 准 椎 动物 基因 组 非 编码 区 中 的 四 碱 枯 比 三 碱 
基 多 ; 而 在 非 崔 椎 动物 和 真菌 中 ， 四 碱 基 则 很 少 
(Tóth et al ，2000)。 

重复 拷贝 类 别 在 编码 区 和 非 编 码 区 也 有 显著 差 
异 。 在 单 碱 基 重复 序列 类 型 中 ，A 主要 存在 于 非 编 
码 区 ，C 主要 存在 于 编码 区 。 两 碱 基 中 ，AG 在 秀 
丽 隐 杆 线虫 的 基因 间隔 区 最 多 ，AT 则 在 内 含 子 中 
最 多 ; AC 在 真菌 基因 组 的 内 含 子 中 较 多 ; AT 是 其 
他 真 核 生物 基因 组 的 非 编码 区 中 最 为 丰富 的 类 别 。 
三 碱 基 中 ，G + C 丰富 的 重复 拷贝 类 别 在 所 有 痊 椎 
动物 基因 组 的 外 显 子 中 都 是 最 多 的 ; AAC 和 AAG 
在 有 上 肛 植物 外 显 子 中 最 丰富 ; 而 A+T 丰 富 的 三 碱 
基 重 复 拷贝 在 酵母 和 真菌 外 显 子 中 最 为 丰富 。 大 多 
数 物种 基因 组 的 外 显 子 中 一 般 都 较 少 含有 四 碱 基 重 
复 序列 类 型 ， 但 AAAB (B 为 除 A 之 外 的 碱 基 ) 在 
灵 长 类 和 和顺 齿 类 中 是 最 丰富 的 。 五 碱 基 重 复 序 列 类 
型 主要 存在 于 非 编 码 区 ， 其 中 主要 是 A +T 丰富 类 
型 (T6th et al，2000) 。 还 有 一 类 被 称 为 编码 氨基 酸 
的 重复 序列 ， 它 们 是 编码 蛋白 质 中 的 连续 氨基 酸 
(如 丙 氮 酸 - 丙 氨 酸 - PUER) 的 重复 序列 ， 在 这 
些 区 域 的 三 碱 基 重 复 序列 中 ， 明 显 是 倾向 于 G + C 
丰富 类 型 的 。 在 人 类 中 最 多 的 类 别 是 CAG 和 GAG 
(Alba & Guigo, 2004), 


2 串联 重复 序列 的 变异 


串联 重复 序列 在 生物 机 体内 很 不 稳定 ， 经 常 发 
生变 异 ， 即 重复 单位 的 扩展 或 缩小 。 微 卫星 突变 率 
因 物 种 不 同 而 不 同 。 从 果 蝇 中 的 5 x 10-5 (Vazquez 


et al，2003)， 到 人 类 中 的 1x 107? (Brinkmann et 
al, 1998; Xu et al, 2000) 不 等 ， 这 也 说 明 重 复 序 
列 是 生物 基因 组 DNA 进化 的 一 个 重要 来 源 。 对 于 
串联 重复 序列 的 起 源 及 其 进化 机 制 一 直 都 是 研究 的 
热点 。 较 早 对 这 种 变异 做 出 的 解释 是 : 24 DNA X 
制 的 时 候 ， 会 产生 DNA 滑 移 错 配 ， 随 后 ， 这 种 错 
配 在 DNA 的 复制 过 程 中 ， 经 过 修复 和 重组 作用 而 
产生 重复 的 序列 (Levinson & Gutman，1987)。 但 
从 各 种 重复 序列 类 型 在 不 同 生 物 基 因 组 间 、 同 一 基 
因 组 内 不 同 染色 体 间 、 编 码 区 和 非 编 码 区 间 存 在 的 
差异 来 看 ， 不 是 某 一 个 单一 的 机 制 就 可 以 完全 解释 
清楚 这 些 差异 的 。 
2.1 在 基因 组 中 的 扩展 机 制 

重复 序列 与 许多 疾病 的 发 生存 在 着 密切 的 联 
系 。 在 约 30% 的 结肠 肿瘤 患者 中 ， 肿 瘤 细 胞 与 正常 
的 健康 细胞 相 比 ， 其 DNA 序列 中 (CA) n 重复 序 
列 在 长 度 上 有 着 显著 的 差异 (Thibodeau et al, 
1993) 。 三 碱 基 串 联 重复 序列 至 少 与 16 种 遗传 疾病 
的 发 生 有 关 (Margolis & Ross，2001 )。 其 中 ， 
(CAG)n/ (CTG)n 与 享 廷 顿 舞 蹈 症 (Huntington's 
disease) 和 强直 性 肌 葵 缩 症 〈myotonic dystrophy ) ; 
(GCC)n / (GGC)n 与 脆性 X 染色 体 综合 征 (fragile 
X syndrome); (GAA)n/ (TTC)n 与 弗 里 德 赖 希 共 济 
失调 (Friedreich’s ataxia，FRDA) 的 发 病 有 关 。 其 
发 病 的 机 理 是 由 于 位 于 基因 编码 区 的 这 些 三 碱 基 重 
复 序 列 的 扩展 造成 的 (Heidenfelder et al，2003 )。 
Heidenfelder et al (2003) 利用 聚合 酶 在 体外 对 
GAA/TTC 的 重复 序列 进行 扩 增 ， 并 用 电子 显微镜 
观察 其 二 级 结构 ， 首 次 发 现 了 在 DNA 合成 过 程 中 
(GAA)n fll (TTC)n 所 形成 的 发 来 环 结构 。 这 种 发 
夹 环 结构 的 形成 ， 可 以 保护 后 沾 链 滑动 所 形成 的 重 
复 结构 免 受 错 配 修复 系统 的 修正 。 这 也 是 支持 重复 
序列 发 生 的 “复制 滑 移 学 说 ”的 一 个 证 据 。 

Heidenfelder & Topal (2003) 进一步 的 研究 表 
明 ， 这 种 发 夹 环 结构 的 形成 并 非 是 DNA 复制 过 程 
中 重复 序列 扩展 所 必需 的 。 在 开 型 强直 性 肌 蓉 缩 症 
(myotonic dystrophy type 2, DM2) 基因 中 的 某 些 重 
复 序列 扩展 位 点 上 ， 并 行 存在 着 几 种 类 似 的 重复 序 
列 结构 (如 CCTG、TCTG)， 而 仅 有 其 中 的 一 种 重 
复 序列 类 型 (CCTG) 被 发 现在 这 种 疾病 中 得 到 扩 
展 。 他 们 利用 人 的 DNA 聚合 酶 B 在 体外 研究 了 与 
这 种 疾病 发 生 有 关 的 序列 相 类 似 的 几 种 重复 序列 
(在 重复 单位 上 它们 存在 一 个 或 几 个 碱 基 的 差别 )， 
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结果 显示 ， 一 些 细小 的 变化 ， 如 把 四 碱 基 重 复 单 位 
中 的 下 转变 成 C， 可 以 显著 影响 新 生 的 重复 序列 的 
扩展 。 因 此 ， 作 者 认为 ， 这 种 扩展 主要 是 与 重复 序 
列 的 碱 基 组 成 有 关 ， 而 与 形成 的 发 夹 结 构 关 系 不 
大 。 由 此 可 见 ， 对 于 不 同 的 重复 序列 ， 其 扩展 机 制 
也 可 能 不 同 ， 或 者 另 有 一 个 共同 的 机 制 还 没有 被 揭 
示 出 来 。 
2.2 生物 功能 与 进化 

从 重复 序列 在 基因 的 外 显 子 区 、 内 含 子 以 及 基 
因 间 隔 区 存在 的 差异 可 以 看 出 ， 串 联 重复 序列 在 整 
个 基因 组 中 并 非 随 机 存在 的 。 位 于 蛋白 质 编码 区 的 
重复 序列 ， 如 果 发 生 扩展 或 减 缩 ， 将 会 因为 发 生 移 
框 突变 或 因 延 长 的 有 害 mRNA 的 生成 ， 而 使 基因 未 
失 功 能 或 重新 获得 新 的 功能 。 位 于 基因 非 翻 译 区 
(untranslated regions，UTRs) 5' 端 重复 序列 的 变异 ， 
可 以 通过 影响 基因 的 转录 和 蛋白 质 的 翻译 而 起 到 调 
节 基 因 表达 的 作用 ; 位 于 UTRs3' 端 的 重复 序列 的 
扩展 ， 可 以 导致 转录 滑 移 ， 并 产生 延伸 的 mRNA, 
又 可 以 进一步 地 影响 mRNA 剪 切 或 影响 其 他 的 生物 
功能 。 同 样 ， 位 于 内 含 子 处 的 重复 序列 的 扩展 或 缩 
减 ， 也 可 以 影响 基因 转录 、mRNA 的 剪 切 或 mRNA 
向 胞 质 的 输出 。 位 于 UTR. 区 或 者 内 含 子 的 三 碱 基 
重复 ， 还 能 诱导 异 染 色 质 样 的 基因 沉默 。 而 最 终 所 
有 这 些 影响 可 以 导致 生物 表 型 的 改变 (Li Y et al, 
2004) 。 由 于 位 于 基因 内 的 比 基 因 间隔 区 的 重复 序 
列 往往 更 具有 “生物 功能 ”作用 ， 因 而 也 承受 了 更 
多 的 选择 压力 ， 或 许 是 生物 快速 适应 外 界 环境 变化 
的 分 子 基 础 。 有 研究 表明 ， 一 些 生 物 有 机 体能 快速 
地 改变 表 型 特征 来 适应 各 种 逆境 的 环境 ， 就 是 与 基 
因 中 的 重复 序列 在 DNA、RNA 或 者 蛋白 质 合 成 过 
程 中 产生 的 滑动 错 配 而 诱导 产生 有 关 (Rocha et al, 
2002), 

重复 序列 的 进化 主要 受 以 下 几 个 方面 因素 的 影 
Wd: 重复 序列 自身 的 碱 基 组 成 情况 ; 重复 单位 的 找 
贝 数 ， 即 重复 序列 长 度 ; 在 基因 组 中 的 位 置 ; 不 同 
物种 中 重复 序列 的 进化 方式 和 进化 速度 的 差异 。 

重复 序列 自身 的 碱 基 组 成 可 能 决定 了 重复 序列 
形成 过 程 中 的 构 型 ， 因 而 必 将 对 其 自身 的 进化 产生 
影响 。 对 小 鼠 、 人 类 、 果 蝇 和 酵母 的 研究 表明 ， 两 
碱 基 重 复 序列 类 型 的 突变 率 最 高 ， 其 次 是 三 碱 基 ， 
再 次 是 四 碱 基 (Kruglyak et al，2000)。 对 于 不 同 重 
复 拷贝 类 别 的 两 碱 基 而 言 ， 其 突变 率 也 是 不 同 的 。 
利用 黑 腹 果 蝇 ( Drosophila melanogaster) 第 二 号 染 





色 体 上 42 个 微 卫星 位 点 ， 共 包括 3 种 重复 序列 类 
型 (AC、AG、AT)， 对 其 6 个 不 同 群体 的 突变 特 
征 的 分 析 表 明 ，AC 的 突变 率 最 高 ， 而 AT 最 低 
(Bachtrog et al，2000) 。 酵 母 基因 组 中 含 A+T 的 三 
碱 基 重复 的 滑动 率 较 高 (Kruglyak et al，2000)。 在 
不 同 的 物种 中 ， 各 种 类 型 重复 序列 的 滑动 突变 率 可 
能 各 不 相同 (Harr & Schl6tterer，2000; Harr et al, 
2002)。 值 得 注意 的 是 ， 几 乎 在 所 有 的 生物 基因 组 
中 ，GC 的 数目 普遍 偏 少 。Schorderet & Gartler 
(1992) 研究 了 6 种 准 椎 动物 基因 组 后 ， 对 此 作出 
的 解释 是 : 由 于 基因 组 DNA 中 的 CpG 的 甲 基 化 ， 
使 之 成 为 一 个 突变 的 热点 ， 因 为 甲 基 化 的 胞 苷 酸 C 
很 容易 经 过 脱 氨基 作用 转变 成 胸腺 喀 啶 T。Stallings 
(1992) 的 研究 结果 表明 ， 不 管 CpG 两 碱 基 是 否 受 
到 抑制 ， 物 种 中 的 GC 重复 都 是 偏 少 的 ， 并 进一步 
认为 其 可 能 的 问题 在 于 GC 重复 所 形成 的 DNA 结构 
上 。 

重复 序列 的 突变 率 与 其 长 度 成 正 相 关 。 但 重复 
序列 的 增长 并 不 是 无 限 的 ， 它 取决 于 滑 移 突变 和 序 
列 长 度 之 间 的 一 种 平衡 。 当 重复 单位 的 重复 拷贝 数 
增加 的 时 候 ， 滑 动 突变 也 呈 指 数 式 增长 。 当 发 生 江 
动 突变 的 时 候 ， 对 于 短 的 重复 序列 而 言 ， 倾 向 于 扩 
展 长 度 ; 对 于 长 的 重复 序列 ， 则 呈 缩 减 趋势 (Lai 
& Sun, 2003), 

重复 序列 在 基因 组 中 的 位 置 不 同 ， 其 位 点 多 态 
性 组 成 也 不 同 。 这 主要 是 因为 承担 生物 功能 的 重复 
序列 经 受 着 较 大 的 选择 压力 ， 而 那些 处 于 “无 用 ” 
位 置 的 重复 序列 可 以 较为 “自由 ”地 突变 。 通 过 对 
玉米 的 一 些 基因 研究 表明 ，67% 的 启动 子 、58% 的 
内 含 子 处 的 重复 序列 存在 多 态 性 ， 而 只 有 13% 的 外 
显 子 处 的 重复 序列 显示 了 扩 增 长 度 的 多 态 性 (Hol- 
land et al, 2001), 
2.3 进化 趋势 与 C 值 矛 盾 

Alba 和 Guigo (2004) 认为 ， 编 码 氨基 酸 的 富 
含 G+C 的 重复 序列 ， 如 CAG、GAG 等 重复 可 以 通 
过 链 滑动 而 得 到 扩展 ， 这 种 扩展 反 过 来 又 可 以 导致 
整体 基因 序列 中 G + C 含量 的 上 升 ， 同 时 ， 非 编码 
区 重复 序列 中 A 和 T 的 比例 越 高 ，DNA 双 螺 旋 也 
越 不 稳定 (Moxon & Rainey，1995) 。 如 果 按 照 这 种 
推论 ， 基 因 组 也 将 伴随 着 重复 序列 的 扩 增 ， 呈 扩大 
的 趋势 。 这 样 ， 越 高 等 的 生物 ， 其 基因 组 的 含量 也 
应 该 越 大 。 但 事实 却 存在 着 一 个 C 值 矛 盾 的 问题 ， 
许多 两 栖 类 的 基因 组 比 人 类 的 基因 组 还 要 大 。 这 也 
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表明 基因 组 中 的 重复 序列 的 扩展 在 高 等 生物 中 受到 
了 某 种 限制 。Jiang (1998) 以 GCG 软件 和 数学 模 
型 为 工具 ， 对 重复 序列 的 宏观 组 成 分 析 的 结果 显 
m, DNA 重复 序列 的 存在 明显 远离 平衡 态 。 这 种 系 
统 地 远离 平衡 态 的 重复 序列 的 出 现 ， 支 持 重复 序列 
的 合成 先 于 基因 ， 基 因 组 起 源 于 重复 序列 扩 增 的 观 
点 。 基 因 组 必须 在 进化 过 程 中 不 断 形成 并 维持 这 种 
结构 ， 以 利 基因 组 发 挥 正常 功能 ; 而 不 同 的 重复 序 
列 的 量 都 被 控制 在 一 定 的 范围 ， 即 为 一 种 耗 散 结 
构 ， 是 需要 消耗 能 量 来 维持 的 ， 央 而 有 它 特定 的 功 
能 。 在 进化 过 程 中 ， 基 因 组 为 了 对 抗 环 境 压力 需 增 
加 新 的 功能 和 新 的 基因 。 这 种 增加 可 以 从 增加 重复 
序列 开始 ， 重 复 序列 可 进一步 突变 或 为 某 些 序列 的 
扩 增 或 移动 提供 重组 所 需 的 相同 序列 ; 同时 ， 过 多 
的 重复 序列 将 导致 能 量 消耗 的 过 重负 担 以 及 过 多 的 
重组 和 剪 切 ， 即 导致 基因 组 的 不 稳定 性 。 因 此 ， 重 
复 序列 必须 被 维持 在 某 一 范围 内 。 

通过 以 上 的 分 析 ， 我 们 认为 C 值 了 矛盾 看 似 予 
盾 ， 实 则 根本 不 矛盾 。 基 因 组 扩 增 的 一 个 重要 来 源 
是 重复 序列 的 扩 增 ， 而 生物 进化 的 目标 并 不 体现 在 
生物 基因 组 的 庞大 上 ， 而 是 体现 在 基因 组 的 “ 效 
率 ” 上 。 过 多 的 重复 序列 的 扩 增 ， 相 反 的 是 生物 机 
体内 与 DNA 合成 修复 等 相关 酶 系统 不 完善 的 体现 ， 
将 导致 大 量 的 无 用 序列 的 出 现 ， 这 些 序列 必 将 降低 
基因 组 发 挥 功 能 的 效率 ， 是 与 “进化 ”本 意 相 违背 
的 。 而 只 有 像 人 类 等 这 种 高 等 生物 会 把 基因 组 的 规 
模 控制 在 一 个 较为 完善 的 水 平 ， 而 过 低 的 基因 组 水 
平 ， 如 大 肠 杆菌 等 原核 生物 ， 虽 然 基因 组 发 挥 生物 
功能 的 效率 最 高 ， 但 其 所 能 表现 的 生物 功能 却 很 有 
限 。 


3 问题 与 展望 


目前 对 于 重复 序列 在 物种 基因 组 中 的 组 成 与 存 
在 特征 等 研究 ， 还 存在 着 研究 方法 和 技术 上 的 差 
别 。 这 些 差别 给 不 同 生物 基因 组 间 的 比较 研究 带 来 
了 许多 麻烦 ， 同 时 也 产生 了 许多 新 的 研究 课题 。 
3.1 重复 序列 分 析 软 件 的 多 样 化 

目前 可 用 于 重复 序列 分 析 的 软件 很 多 ， 如 Tan- 
dem repeat finder, Repeat masker、DNA works 等 。 
由 于 研究 者 采用 的 重复 序列 分 析 软 件 和 算法 各 不 相 
同 ， 这 给 不 同 生物 基因 组 间 的 重复 序列 在 组 成 和 存 
在 特征 上 的 比较 带 来 困难 ， 甚 至 不 同 软件 对 同一 物 
种 中 重复 序列 分 析 结 果 也 不 尽 相 同 。 如 Klevytska et 


al (2001) 用 Genequest 软件 程序 (Dnastar package, 
LaserGene Inc. Madison Wis. ， 分 析 重 复 序列 的 起 点 
长 度 是 8 个 碱 基 ， 可 以 对 1 ~ 100 bp 以 上 的 重复 单 
位 组 成 的 重复 序列 进行 分 析 ) 与 用 SSR Search 程序 
(可 以 对 小 至 两 个 碱 基 长 度 的 重复 序列 进行 分 析 ， 
但 只 能 对 1 ~ 10 个 碱 基 长 度 的 重复 单位 组 成 的 重复 
序列 进行 分 析 ) 对 鼠疫 耶 尔 森 氏 菌 (Y. pestis) 基 
因 组 中 的 重复 序列 分 析 结 果 做 了 比较 ， 两 者 的 结果 
明显 不 同 : 前 者 三 碱 基 的 数量 最 多 ， 其 次 是 六 碱 基 
和 八 碱 基 ; 而 后 者 单 碱 基 最 多 ， 然 后 依次 分 别 是 二 
碱 基 、 三 碱 基 、 四 碱 基 等 。SSR Search 在 Y. pestis 
基因 组 中 ， 每 一 万 碱 基 序列 长 度 可 以 检测 到 950 个 
SSR ， 而 Genequest 只 能 发 现 1.86 个 SSR。 分 析 结 
果 差 异 源 于 对 重复 序列 搜索 的 算法 不 同 。Genequest 
可 以 检测 不 完美 的 重复 序列 ， 同 时 最 小 检测 8 个 碱 
基 长 度 ; 而 SSR Search 搜索 程序 可 以 搜索 许多 前 者 
所 不 能 搜索 到 的 重复 序列 ， 但 却 只 能 搜索 1 ~ 10 个 
碱 基 重复 单位 组 成 的 重复 序列 (大 量 短 的 单 碱 基 )， 
同时 也 不 能 检测 不 完美 型 的 重复 序列 。 
3.2 重复 序列 统计 标准 的 差异 

重复 序列 统计 标准 的 差异 也 给 不 同 生物 基因 组 
之 间 的 比较 带 来 困难 。 其 差异 主要 有 3 个 方面 : 重 
复 序列 的 长 度 定 义 、 重 复 序列 完美 性 (perfect) 的 
程度 、DNA 双 链 中 重复 序列 的 互补 情况 。 
3.2.1 重复 序列 的 长 度 定义 Klevytska et al 
(2001) 把 8 个 及 其 以 上 的 碱 基 长 度 作 为 统计 标准 ， 
Bp: 对 于 单 碱 基 重复 ， 要 连续 8 个 ; 两 碱 基 的 重复 
拷贝 数 为 4 个 或 4 个 以 上 ; 三 碱 基 的 重复 拷贝 数 为 
3 个 或 3 个 以 上 ， 依 次 类 推 。Rocha et al (2002) 对 
此 的 定义 则 是 : 二 5 的 单 核 苷 酸 序列 ，>>6 的 两 核 
HET), 26 的 三 核 苷 酸 序列 ，> 8 的 四 核 苷 酸 
序列 ， 即 把 最 小 的 重复 长 度 定义 为 5 个 碱 基 。 此 
外 , 还 有 把 12 个 碱 基 的 长 度 (Borstnik & 
Pumpernik ，2002) ， 甚 至 20 个 碱 基 的 长 度 (Katti et 
al, 2001) 作为 统计 的 起 点 。 同 时 ， 也 有 以 最 低 重 
复 拷贝 数 作为 统计 的 标准 ， 如 Ross et al (2003) 把 
最 低 拷贝 数 定 为 5， 即 5 个 碱 基 长 度 的 单 碱 基 重 复 
序列 类 型 ，10 个 碱 基 长 度 的 两 碱 基 重 复 序列 类 型 ， 
依次 类 推 。 这 些 统计 标准 的 差异 对 不 同文 献 中 所 报 
道 的 不 同 物种 基因 组 间 重 复 序列 的 比较 ， 同 时 也 对 
同一 物种 中 的 分 析 结 果 产 生 歧 异 。 

我 们 认为 ， 由 于 重复 序列 在 基因 组 中 存在 的 随 
机 性 和 必然 性 ， 对 重复 序列 统计 标准 的 界定 ， 既 要 
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考虑 重复 序列 的 长 度 ， 也 要 考虑 重复 序列 的 拷贝 
数 。 就 随机 性 而 言 ， 在 DNA 序列 4 种 碱 基 中 ， 随 
意 两 个 相 辣 碱 基 并 列 在 一 起 的 几率 远大 于 3 个 相同 
碱 基 ， 这 种 差异 只 是 反映 了 碱 基 随 机 排列 出 现 重复 
序列 的 概率 ; 而 就 必然 性 而 言 ， 重 复 序 列 的 发 生 是 
基因 组 长 期 进化 的 产物 ， 在 基因 组 中 是 有 一 定 生物 
学 功能 的 ， 因 此 ， 不 能 把 重复 序列 的 长 度 定 义 得 太 
小 。 如 对 单 碱 基 的 定义 ， 如 果 只 以 2 或 3 个 碱 基 长 
度 作 为 统计 起 点 ， 这 种 类 型 无 疑 是 在 所 有 基因 组 中 
最 丰富 的 重复 序列 类 型 ， 掩 盖 了 重复 序列 发 生 的 
“必然 性 ”的 本 质 。 当 然 ， 长 度 越 长 ， 也 就 越 “ 严 
格 ”， 但 会 漏 掉 大 量 的 有 用 信息 。 因 此 ， 我 们 认为 
把 重复 序列 最 低 长 度 定义 在 10 ~ 20 个 碱 基 ， 同 时 
对 于 七 碱 基 及 其 以 上 重复 序列 类 型 的 拷贝 数 定义 在 
2 个 拷贝 较为 合适 。 因 而 具体 的 统计 标准 是 : 14 或 
14 个 拷贝 以 上 的 单 碱 基 重 复 序列 ，7 或 7 个 拷贝 以 
上 的 两 碱 基 重 复 序 列 ; 5 或 5 个 拷贝 以 上 的 三 碱 基 
重复 序列 ; 4 或 4 个 拷贝 以 上 的 四 碱 基 重 复 序 列 ，3 
或 3 个 拷贝 以 上 的 五 六 碱 基 重 复 序列 (Gao et al, 
2004), 2 或 2 个 拷贝 以 上 的 七 碱 基 及 七 碱 基 以 上 的 
重复 序列 类 型 (Cao & Kong, 2005). 

3.2.2 重复 序列 完美 性 的 程度 Weber (1990) £f 
对 人 类 (CA)n 中 CA 重复 序列 排列 方式 的 不 辐 ， 
提出 两 碱 基 重 复 序 列 类 型 的 微 卫星 排列 方式 可 以 划 
分 为 3 种 : 完美 型 (perfect ) 、 不 完美 型 〈(imper- 
fect) 和 复合 型 (compound)。 完 美 型 是 指 核心 序列 
以 不 间断 的 重复 方式 首尾 相连 而 成 ; 不 完美 型 是 指 
2 个 或 2 个 以 上 的 同 种 重复 序列 被 3 或 3 个 以 下 的 
非 重复 碱 基 所 间隔 ; 复合 型 是 指 一 种 重复 序列 和 其 
他 种 重复 序列 由 3 个 碱 基 以 下 的 非 重 复 序列 间隔 
(包括 直接 相连 接 ) 所 组 成 的 重复 序列 类 型 。 有 些 
以 完美 型 作为 统计 标准 (Tóth et al, 2000; Tem- 
nykh et al, 2001); 另 一 些 则 以 不 完美 型 作为 统计 
标准 ， 如 Katti et al (2001) 允许 每 10 个 碱 基 可 以 
有 1 个 碱 基 “ 错 配 ”， 而 Rose et al (2003) 采用 的 
统计 标准 则 更 为 宽松 。 由 于 各 自 采用 的 标准 不 同 ， 
会 对 统计 结果 产生 很 大 的 影响 。 

3.2.3 DNA 双 链 中 重复 序列 的 互补 情况 ”Gur-Arie 
et al (2000) 统计 两 碱 基 重复 时 ， 认 为 有 6 种 类 型 ， 
即 AC/CA. AG/GA, AT/TA, CG/GC, CT/TC, 
GT/TG。 而 事实 上 ，AC/CA 和 GT/TG, AG/GA 和 
CT/TC 只 是 反应 了 DNA 互补 链 的 不 同 ， 本 质 上 属 
于 同一 种 类 型 。 在 考虑 互补 链 的 同时 ， 还 应 该 考虑 


计数 重复 拷贝 数 起 始 顺序 的 差异 .如 ATATATATAT- 
ATAT， 可 以 看 作 是 AT 重复 单位 重复 7 次 所 组 成 的 
重复 序列 ， 也 可 以 看 作 TA 重复 单位 重复 6.5 次 所 
组 成 的 重复 序列 。 因 此 ， 应 该 把 AT 和 TA 重复 看 
作 同 一 种 类 型 ， 虽 然 这 会 造成 重复 拷贝 数 上 0.5 个 
拷贝 数 的 差异 ， 但 这 对 各 重复 序列 类 型 中 的 重复 拷 
贝 数 存 在 特征 影响 很 小 。 
3.3 展望 

随 着 DNA 测序 技术 的 改进 ， 近 几 年 来 ，DNA 
测序 进程 大 大 加 快 ， 每 天 都 有 大 量 的 核酸 序列 提交 
到 GeneBank 等 数据 库 上 ， 这 有 利于 系统 分 析 各 物 
种 基因 组 中 重复 序列 的 组 成 和 存在 。 今 后 ， 串 联 重 
复 序 列 研 究 的 热点 将 集中 在 以 下 几 个 方面 : 
3.3.1 串联 重复 序列 自身 的 进化 关系 ”目前 的 大 
量 研 究 均 限 于 微 卫星 等 (Katti et al, 2001; T6th et 
al, 2000), ， 而 对 于 六 核 苷 酸 重复 单位 以 上 的 重复 序 
列 在 基因 组 中 的 组 成 和 存在 研究 较 少 ， 且 仅 限 于 一 
些 原核 生物 (Klevytska et al, 2001); 很 少 涉及 真 
核 生 物 ， 尤 其 是 重复 单位 长 度 在 20 个 碱 基 以 上 的 
重复 序列 几乎 处 于 空白 。 其 中 的 原因 在 于 : 对 更 长 
重复 单位 组 成 的 重复 序列 的 研究 ， 会 使 其 统计 工作 
量 成 倍 地 增加 ; Guo (2004) 认为 : 更 长 的 微 卫星 
(在 5 个 碱 基 重 复 单位 长 度 以 上 ) 在 表现 规律 上 没 
有 更 多 的 变化 ， 增 加 微 卫星 重复 单位 的 长 度 只 是 增 
加 计算 量 ， 不 会 得 到 更 多 的 结果 。 但 对 中 国明 对 是 
基因 组 的 研究 结果 表明 ， 微 卫星 和 小 卫星 重复 序列 
在 发 生 上 可 能 存在 一 定 联系 ， 即 一 部 分 小 卫星 可 能 
是 在 微 卫 星 重复 序列 的 基础 上 进化 而 来 的 〈Gao & 
Kong，2005)。 因 此 ， 随 着 微 卫 星 研 究 基 础 资料 的 
积累 以 及 对 于 更 长 重复 单位 组 成 的 重复 序列 的 调查 
分 析 ， 这 个 问题 有 望 在 不 久 的 将 来 得 到 明确 的 答 
案 。 扩 大 对 于 小 卫星 重复 序列 在 基因 组 中 ， 尤 其 是 
在 人 类 、 果 蝇 等 基因 组 序列 已 经 测序 完毕 的 生物 中 
的 调查 分 析 是 非常 有 必要 的 ， 这 也 是 将 来 重复 序列 
研究 分 析 的 一 个 重要 方向 。 
3.3.2 串联 重复 序列 在 全 基因 组 水 平 上 的 进化 地 
位 重复 序列 一 度 曾 被 认为 是 进化 中 的 垃圾 序列 ， 
曾 被 称 为 进化 的 痕迹 。 而 现在 普遍 的 看 法 是 ， 许 多 
重复 序列 在 基因 组 中 具有 显著 的 生物 功能 。 人 类 基 
因 组 中 的 微 卫 星 比 例 为 3% (International Human 
Genome Sequencing Consortium, 2001), ， 按 蚊 基 因 组 
中 微 卫星 约 占 整 个 基因 组 序列 的 2.14% (Yu et al, 
2005), ， 而 河豚 鱼 ( Takifugu rubripes ) 中 的 约 为 
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0.9696 (Takagi et al，2003)。 相 反 ， 在 我 们 研究 的 
中 国明 对 是 基因 组 中 ,， 微 卫星 的 比例 则 高 达 
9.78%， 小 卫星 约 占 3.42 和 % ， 串 联 重复 序列 总 体 上 
占 整个 基因 组 的 13.296 (Kong & Gao, 2005). 同 
时 通过 对 果 蝇 属 的 5 个 物种 (D. arionae, D. 
mojawensis . D. pachea, D. neatestacea 和 D. re- 
cens) 基因 组 中 的 微 卫 星 的 组 成 与 存在 等 特征 的 研 
究 表明 ， 微 卫星 在 这 5 个 种 间 的 存在 与 组 成 方面 的 
差异 较 少 (Ross et al，2003)。 由 此 可 见 ， 不 同 生 
物 中 串联 重复 序列 在 基因 组 中 的 组 成 比例 是 不 同 
的 。 而 亲缘 关系 相近 的 物种 ， 串 联 重复 序列 在 基因 
组 中 的 组 成 和 存在 又 具有 一 定 的 相似 性 ， 这 显示 了 
其 与 生物 基因 组 进化 上 的 密切 关系 。 如 果 基 于 系统 
进化 树 中 各 种 生物 的 进化 关系 研究 各 种 串联 重复 序 
列 在 物种 中 的 组 成 与 存在 特征 ， 将 会 有 许多 新 的 发 
现 。 这 也 就 是 新 的 课题 : 基于 串联 重复 序列 进化 关 
系 的 比较 基因 组 学 研究 。 

3.3.89 ”串联 重复 序列 在 基因 组 中 的 功能 ” 越 来 越 
多 的 研究 表明 ， 许 多 串联 重复 序列 在 基因 组 中 具有 
重要 的 功能 ， 目 前 认为 最 起 码 具 有 3 个 作用 : 一 是 
组 成 开放 阅读 框 的 一 部 分 ; 二 是 参与 基因 组 的 调节 
活动 ; 三 是 组 成 染色 体 的 脆性 位 点 (Vergnaud & 
Denoeud，2000)。 前 面 已 经 提 到 许多 三 碱 基 重 复 序 
列 直 接 与 许多 遗传 疾病 的 发 生 密切 相关 (Margolis 
& Ross，2001)， 其 主要 原因 就 是 这 些 重复 序列 与 
其 所 在 染色 体 的 脆性 位 点 有 关 。 有 趣 的 是 ， 在 性 别 
决定 的 研究 中 ， 还 发 现 了 GATA 重复 序列 参与 了 性 
别 调控 。 如 ， 这 类 重复 序列 在 蛇 的 性 染色 体 的 进化 
和 分 化 中 起 着 重要 作用 ; 在 真 核 类 生物 中 ， 还 普遍 
与 性 别 决定 染色 体 密 切 有 关 (Subramanian et al, 
2003)。 还 有 些 类 似 小 卫星 重复 序列 的 DNA 序列 ， 
黄 至 是 直接 用 来 编码 蛋白 质 的 (Marinangeli et al, 
2004)。 可 以 说 ， 对 串联 重复 序列 生物 功能 的 研究 
还 处 于 起 步 阶 段 ， 而 这 项 研究 与 生物 基因 组 的 进化 
研究 是 密切 相关 的 ， 因 而 也 必 将 成 为 一 个 新 的 研究 
3.3.4 重复 序列 数据 库 的 建立 和 完善 ”串联 重复 
序列 在 基因 组 中 的 组 成 与 存在 等 方面 的 研究 是 生物 
言 息 学 在 基因 组 研究 中 的 重要 研究 领域 。 目 前 利用 
生物 信息 学 手段 对 重复 序列 的 研究 在 国外 鞍 勃 开 


展 ， 而 国内 则 处 于 刚刚 起 步 的 阶段 。 在 这 方面 最 显 
著 的 成 就 是 建立 了 部 分 生物 基因 组 串联 重复 序列 数 
据 库 ， 如 Vergnaud & Denoeud (2000) 已 经 建立 了 
包括 人 类 、 秀 丽 隐 杆 线虫 、 拟 南 芥 和 一 些 原核 生物 
的 串联 重复 序列 搜索 数据 库 (http: //minisatel- 
lites .u-psud.fr)。 而 Katti et al (2001) 也 建立 了 人 
的 21 和 22 号 染色 体 、 大 果 电 (D. melanogaster )、 
秀丽 隐 杆 线虫 、 拟 南 芥 和 酵母 中 的 微 卫 星 重复 序列 
数据 库 , 并 对 各 个 重复 序列 在 染色 体 中 的 位 置 作 了 
详尽 的 注释 (http://www.ncl-india .org/ssr)。 同 时 更 
多 的 重复 序列 信息 数据 也 可 以 在 网 上 得 到 (ftp:// 
ftp .technion .ac .il/pub/supported/biotech/ssr . exe, 
Klevytska et al, 2001; http://genetics.elte.hu/ssr; 
Tóth et a1, 2000)。 随 着 我 国 一 些 特有 的 珍惜 生物 
(如 大 熊猫 、 大 鲍 ) 和 一 些 特 有 的 水 产 养殖 生物 
《如 中 国明 对 虾 等) 基因 组 的 研究 深入 ， 相 应 的 串 
联 重复 序列 数据 库 将 会 得 以 建立 。 

3.3.5 上 串联 重复 序列 的 应 用 研究 ”目前 微 卫星 遗 
传 标记 作为 一 类 稳定 而 常规 化 的 遗传 分 析 技 术 , 已 
经 在 包括 人 类 的 亲子 鉴定 、 各 种 动 植物 的 家 系 分 
析 、 遗 传 多 样 性 、 遗 传 连锁 作 图 、 疾 病 的 遗传 连锁 
分 析 等 方面 得 到 了 应 用 。 另 一 种 基于 微 卫 星 重 复 序 
列 的 遗传 标记 是 区 间 简 单 重复 序列 Cinter simple se- 
quence repeat, ISSR) 技术 ,也 是 一 种 常用 的 遗传 
标记 。 这 两 种 遗传 标记 都 是 基于 PCR 技术 的 。 另 
外 基于 Southern 杂交 的 小 卫星 DNA 指纹 图 谱 技 术 ， 
自 Jeffreys (1985) 创立 以 来 ,也 得 到 了 广泛 地 应 
用 。 如 ， 利 用 短片 段 寡 核 苷 酸 探 针 ( 微 卫 星 重复 序 
列 ) 的 指纹 图 谱 分 析 也 同样 可 以 得 到 较 好 的 遗传 指 
纹 图 谱 (Liu et a，2000)。 随 着 这 些 遗 传 标记 的 开 
发 和 研究 ， 必 将 促进 育种 学 中 的 数量 性 状 基因 定位 
和 疾病 筛 查 等 与 人 类 自身 利益 密切 相关 的 学 科 发 
展 。 

总 之 ， 随 着 生物 信息 学 和 基因 组 学 等 的 研究 ， 
我 们 对 串联 重复 序列 在 基因 组 中 的 生物 功能 作用 的 
认识 正在 逐渐 加 深 ; 通过 这 些 重复 序列 在 不 同 物种 
间 和 物种 内 的 比较 分 析 ， 将 有 助 于 了 解 基因 组 的 起 
源 和 进化 ， 也 会 更 好 地 发 挥 这 些 重复 序列 在 基因 表 
达 调 节 、 群 体 遗 传 多 样 性 分 析 ， 以 及 开发 分 子 标记 
等 方面 的 作用 ， 并 得 到 更 为 广泛 地 应 用 。 
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